[レポート]AIM337 – AWS AIサービスを利用して多言語対応の動画字幕・音声読み上げを作成 #reinvent

AWS re:Invent 2018

#Amazon Transcribe

#Amazon Translate

#Amazon Polly

#Amazon Comprehend

#AWS

quiver

2018.11.28

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

本記事はAWS re:Invent 2018の Chalk Talk セッション「AIM337 - Powering Multilingual Video Transcription, Translation, and Search」のレポートです。

AWS の AI サービス

Amazon Polly
Amazon Transcribe
Amazon Translate

を組み合わせて

多言語対応の字幕動画
多言語対応のポッドキャスト

の作成方法を学びます。

スピーカー

Rob Dachowski - Partner Solutions Architect, AWS

セッション概要

Automatic video transcription and translation can help make videos more available and accessible to a global audience in many languages, enabling your employees or customers to access, understand, and benefit from your content. In this chalk talk, we discuss how to transcribe videos, translate them in the required languages in a multilingual application, and enable video search in the viewer’s preferred language—all in an automated and cost-effective manner.

セッション資料

Powering Multilingual Video Transcription, Translation, and Search (AIM337) - AWS re:Invent 2018 from Amazon Web Services

多言語字幕の動画デモ

最初に、昨年の re:invent の Andy Jassy のキーノートを題材に

オリジナルの動画
英語字幕付与
他言語の字幕付与
音声と字幕を他言語に変更

のデモを行います。

パブリックプレビュー提供されているドイツ語が早速使われていました。

この動画をどうやって作るのか学びます

利用サービス

EC2 上の作業は不要で、すべてフルマネージドサービスです。

主要サービスの機能を確認します。

Amazon Transcribe:自動音声認識サービス

音声・動画を文字起こし
S3 の出力先がカスタマイズ可能
各発話の時刻・確度もわかる
チャンネル別文字起こし可能
GDPR 準拠
句読点も正しく付与
専門用語を認識させるための語彙登録機能
状態遷移時に CloudWatch Events でイベント発火
話者の識別
複数の言語に対応(現在は英語・フランス語・スペイン語)

Amazon Transcribe:バッチ・ストリーム実行

Amazon Transcribe には2種類の実行モードがあります。

バッチモードは保存済み音源に向いています
2018年11月に発表されたストリームモードはライブ配信などリアルタイム性の必要な文字起こしに向いています

Amazon Translate:ニューラル機械翻訳サービス

Amazon Translateはニューラルネットワークベースの機械翻訳サービスです。

文章を翻訳する際は、単語帳のような word for word の翻訳を行なうと不自然になり、コンテキストを理解した翻訳が必要です。

Amazon Translate はそのような翻訳に対応しています。

現在は21言語に対応し、対応言語はどんどん増える予定です。

Polly:テキスト読み上げサービス

Amazon Pollyは人工知能を活用したテキスト読み上げサービスです。

27 言語
57 音声(男性・女性・なまりなどが異なる)

に対応しています。

読み上げはストリームされるので、 mp3/ogg といった音源に簡単に保存することができます。

設計時に考慮すべきこと

バッチなのかリアルタイムなのか
- コールセンターの対応作業分析では、リアルタイム性は不要
- 音声データのテキスト化・インデックス化のようなアーカイビングもリアルタイム性は不要
文字起こしだけなのか?翻訳も必要か?
動画と連動してどうやって字幕を表示するか?
- 短い単位で時間と連動して字幕が更新されるのが好ましい
- 長い時間、長い文章が画面下部を支配するのは好ましくない
テキスト読み上げも必要か?

動画字幕に必要な SubRip(.SRT) ファイル形式

動画に字幕をかぶせる際には、 SubRip(拡張子は .srt) のファイル形式がスタンダード。

この形式は YouTube 動画でも利用可能です。

サポートされる字幕ファイル - YouTube

次のように

シーケンス番号
字幕表示時間帯
字幕表示内容

を記載します。

168
00:20:41,150 --> 00:20:45,109
- How did he do that?
- Made him an offer he couldn't refuse.

残念ながら、 Amazon Transcribe の JSON 出力を SRT に変換する公式ツールは存在しません。OSS の利用や自作が必要です。

SubRip のウェブ配信への応用

SubRip フォーマットはウェブにも利用出来ます。

ウェブに特化した VTT ファイルは厳密には SRT ファイルとは異なりますが、非常に似通っています。

Web Video Text Track(WebVTT) と呼ばれ、次のような HTML タグを書きます。

<video width="640" height="480" controls>
  <source src="video.mp4" type="video/mp4" />
  <track src="engligh.vtt" kind="subtitles" srclang="en" label="English" />
</video>

各言語用の VTT ファイルを用意することで多言語対応も可能です。